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Determination of structure of a branched molecule involves analysis of the 
most probable structure on the basis of mass data for fragments of the 
molecule 
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Abstract of FR2844357 

Automatic determination of the most probable structure of a branched molecule, where linear structures 
are included in the set of branch structures, is performed on the basis of mass data obtained for 
fragments of the molecule. Determination of a branched molecular structure from data on the masses of 
fragments of the molecule involves: (a) recording in a memory a list of the basic elements that may 
constitute the branched molecule; (b) storing in the memory the solutions to an equation that includes the 
basic elements, their mass, their number and one of the given masses, and doing the same for all the 
masses; (c) building up sequences of basic elements from the solutions, each sequence including a 
solution for a 'minimum' mass and the complete sequence being a solution for a 'maximum' mass; (d) 
grouping the sequences by composition; (e) storing the possible 'trees' for a composition of basic 
elements as a function of the sequences of the composition determined in stage (c) ; (f) for each 'tree' 
from stage (e), calculating the assembly of possible fragments of the 'tree'; and (g) for each fragment from 
stage (d), testing to find out whether the fragment corresponds to one of the given masses. An 
Independent claim is given for utilization of the above process for the determination of a branched 
molecular structure, where the structure is an oligosaccharide, the data on the masses are obtained by 
mass spectrometry, and the basic elements are monosaccharides or substituent groups. 
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PROCEDE DE DETERMINATION DE MOLECULES BRANCHEES A PARTIR DE DONNEES DE MASSE. 



^) Proc4d^ de determination d'une stnjcture mol6culalre 
branchee k partir de donn^es de masses de fragments de 
ladite molecule, caracteris^ en ce qu'il comprendTes Stapes 
sulvantes: 

a) une 6tape d'enreglstrement dans una m^moire de la 
liste des 6l6ments de base pouvant constituer ladite ntol^ 
cule branchee; 

b) une 6tape de stockage en m^molre des solutions ^ 
une Equation mettant en jeu les 6l6ments de base, leur 
masse, leur nombre et une des masses donn^es, ceci pour 
toutes les masses; 

c) une 6tape de constitution de sequences d'^l^ments 
de base ^ partir desdltes solutions, chaque sequence in- 
duant une solution pour une masse dite minimale et la se- 
quence complete etanl solution pour une masse dite 
maximale; d) une etape de regroupement des sequences 
par composition; 

e) une ^tape de stockage des arbres possibles pour une 
composition o'eiements de base en fonctton des sequences 
de cette composition ddtermlnees ^ r^tape c); 

f) pour ctiaque arbre de retape e), une etape de calcui 
de I'ensemble des fragments possibles de I'arbre; 

g) pour chaque fragment ae retape f), une etape de test 
permettant de savoir si le fragment correspond a une des 



masses donnees. 
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La pr6sente invention se rapporte au domaine de 
I'^tude de molecules et de determination de leur 
composition et de leur structure. En particulier, la 
pr^sente invention se rapporte §l la determination 
automatique de structures mol6culaires branch€es en 
utilisant des donnees de masse. Une application de la 
pr^sente invention est la determination de la structure 
d' oligosaccharides & partir de donnees de masse foumies 
par un spectromdtre de masse* 

Dans ce domaine, la technique habitue llement 
utilisee est xxno 6tude manuelle dee donn6es foumies par le 
spectromStre de masse confrontSes a une expertise humaine. 
Cette etude est trSs coCiteuse en temps. 

Des solutions ont done €te propos^es pour 
r^aliser de manidre automatique 1' etude des donnees de 
masse^ mais les outils developp6s ne permettent pour le 
moment que de determiner les structures lin^aires. 

Le probldme technic[ue que la pr^sente invention 
entend r^soudre est la determination d'une structure 
moieculaire branchee ^ partir d'un spectre de masse ou 
d'autres donnees de masse, ceci de manidre entierement 
automatique sans intervention de I'homme. Les result ats de 
la determination etant destines a des experts, ceux-ci 
pourront infirmer ou confirmer les resultats donnes 
automatiquement . 

La presente invention propose done de determiner 
automatiquement la structure branchee la plus probable pour 
une molecule, les structures lineaires etant incluses dans 
1' ensemble des structures branchees. Pour cela, la presente 
invention realise un certain nombre d' operations sur 
1' ensemble des masses fourni et deiivre un resultat . 



FR 2 844 357 _™_ Page 3 of 27 




2844357 

2 

L' expertise humaine peut Stre requise pour orienter le 
processus ou valider la solution proposSe par le proc6d6 
mais cette intervention n'est que ponctuelle et brdve, 
Ainsi, le temps d' intervention de 1' expert est limite aux 
5 seules questions necessitant reellement une competence 
scientif icjue • 



Pour ce faire, la prfisente invention est du type 
d6crit ci-dessus et elle est remarquable dans son 
10 acceptation la plus large, en ce qu'elle concerne un 
precede de determination d'une structure mol6culaire 
branchSe k partir de donn^es de masses de fragments de 
ladite molecule, comprenant les Stapes suivantes : 

a) une 6tape d' enregistrement dans une memoire 
15 de la liste des 616ments de base pouvant 

constituer ladite molecule branchSe ; 

b) une 6 tape de stockage en memoire des 
solutions k une equation mettant en jeu les 
elements de base, leur masse, leur nombre et 

2 0 une des masses donn^es, ceci pour toutes les 

masses ; 

c) une 6tape de constitution de sequences 
d' elements de base k partir desdites 
solutions, chaque sequence incluant une 

25 solution pour une masse dite minimale et la 

sequence complete Stant solution pour une 
masse dite maximale ; 

d) une etape de regroupement des sequences par 
composition ; 

30 e) une Stape de stockage des arbres possibles 

pour une composition d' pigments de base en 
fonction des sequences de cette composition 
d^termin^es k I'fitape c) ; 
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£) pour chague arbre de l'6t:ape e) , line etape de 
calcul de 1' ensemble des fragments possibles 
de 1 ' arbre ; 

g) pour chague fragment de 1' etape f ) , \ine etape 
de test permettant de savoir si le fragment 
correspond a une des masses donn6es ; 

Avantageusement , 1' etape b) est r6alisee de 
manidre incr^mentale depuis la plus petite masse vers la 
plus grande masse, la solution pour \ane masse est cherchee 
en utilisant les solutions trouvees pour les masses 
inferieures et les donnees correspondant aux dites 
solutions sont stockees dans un tableau* 

De pr6f6rence, I'^tape c) consiste a definir le 
N-dme 616ment de base de la sequence en comparant la 
solution N pour la masse avec la solution N-1 ^ partir de 
laquelle la solution N a €t6 trouv^e et ^ ^crire dans un 
fichier un identifiant dudit N-dme 616ment de base. 

Selon vox mode de realisation pr^f^r^, I'Stape e) 
consiste ^ : 

associer k chague ei6ment de base d'une 
sequence une donnee de type « noeud » 
comport ant un identifiant de 1' element de 
base et au moins une reference k un autre 
noeud ; 

k la N-eme 6 tape, pour chague arbre de 
I'^tape N-1, pour chague noeud comportant une 
r§f€rence libre, cr^er un noeud contenant le 
composant N de la s^guence et affecter ladite 
reference libre audit noeud cr66. 

Avantageusement , I'fetape f) consiste a gSnerer 
une liste de s§guences d' elements de base ou chague 
sequence inclut ladite solution pour une masse minimale, 
les Pigments du fragment correspondant a ladite s^guence 



6tant ordonn^s par ajout de < nceud > en « noeud » a partir 
de ladite solution pour une masse tninimale* 

De preference, l'6tape g) est composge de dexix 

Stapes : 

- une etape de comparaison de la sequence 
correspondant audit fragment avec lee sequences 
de ladite composition resultant un premier 
booleen VRAI ou FAUX ; 

- Si ledit premier booleen est FAUX^ une 6tape de 
comparaison de la composition de ladite sequence 
avec les compositions des sous -sequences de meme 
longueur incluant la solution minimale deedites 
sequences solutions pour ime masse maximale 
resultant ion deuxieme booleen VRAI ou FAUX, 
Selon un autre mode de realisation, le procedS 

comprend une etape suppl6mentaire de choix de I'arbre (des 
arbres) le(e) plus pertinent (s) en fonction des rSsultats 
de l'6tape g) en associant k chacxrn des arbres g€n6rSs k 
I'Stape e) un compteur mis h z5ro au debut du procSdS et 
incrSmente d'un si lesdits deux boolSens sont FAUX et en 
choisissant I'arbre (ou les arbres) dont le(s) compteur (s) 
est (sont) le(s) plus faible(s). 

La presente invention se rapporte Sgalement ^ 
une utilisation du procSdS de determination d'une structure 
tnoleculaire branchSe dScrit dans les paragraphes precedents 
caracterisee en ce que la structure recherchee est un 
oligosaccharide, les donnees de masse sont obtenues par 
spectrometrie de masse et les elements de base sont des 
monosaccharides ou des groupements substituants . 

On comprendra mieux la presente invention a 
I'aide de la description, faite ci-apr^s k titre purement 
explicatif, d'un mode de realisation de 1' invention, en 
reference aux figures annexSes : 

- La figure 1 represente un spectre arbitraire 
de masse simulant un spectre experimental. 
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La figure 2 illustre la pretniSre partie du 

dSroulement d'un mode de realisation de 
1' invention. 

La figure 3 illustre la deirscieme partie du 

d^roulement d'un mode de realisation de 
1' invention. 



Le procede selon 1' invention comporte 5 etapes 
pr^cedees d'une Stape preliminaire realisee independamment 
du proced6 : 

L'6tape preliminaire oonsiste k obtenir un 
ensemble de masses correspondant ^ des fragments de la 
molecule a determiner • Cet ensemble de masses est appeie 
« spectre experimental »• 

La premidre etape consiste a enregistrer 
1' ensemble des molecules simples susceptibles de composer 
la molecule k determiner. 



La deuxidme etape consiste S determiner 
1' ensemble des chemins allant d'une struicture racine a ijuie 
structure finale oil la structure racine correspond k une 
valeur dite « minimale » de 1' ensemble des masses et la 
structure finale correspond k \ine valeur dite « maximale » 
de 1' ensemble des masses. L' ensemble de ces chemins passe 
par des structures inteiinediaires, c'est-a-dire incluant la 
structure racine et incluses dans la structure finale, et 
correspondant S des valeurs de masses comprises entre la 
valeur minimale et la valeur maximale. 

La troisieme etape consiste k generer des 
sequences de molecules simples obtenues ^ partir desdits 
chemins et de regrouper les sequences ayant les memes 
nombres de chaque molecule simple en « composition » . 
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La guat:ri^ine Stape consiste a determiner pour 
chac[ue composition, 1' ensemble des arbres possibles. De 
prSfgrence, chaque arbre doit pouvoir etre const itu€ a 
5 partir de n'importe quelle sequence de la decomposition. 

La cinquieme 6tape consiste Sl calculer pour 
chaque arbre le « spectre » thgorique de 1 ' arbre en 
determinant de tous les fragments possibles de 1 ' arbre 
10 contenant la racine et & comparer le spectre th^orique avec 
le spectre experimental, 

Le r^sultat de la comparaison permet de 
determiner quel est 1' arbre le plus probable. 

15 

Le procSde selon 1' invention peut etre utilise 
pour determiner de manidre automatique la composition 
d' oligosaccharides . Pour la determination d'un 
oligosaccharide, il comporte plusieurs etapes : 

20 

Une etape preiiminaire est destinee a obtenir un 
ensemble de masses (appeie « spectre ») obtenu par 
spectrometrie de masse de la molecule a determiner. Les 
masses de cet ensemble comprennent les masses de fragments 
25 de la molecule, de produits de recomposition entre les 
composants de la molecule ou de fragments substitues. 

Une premiere etape consiste ^ enregistrer dans 
line memoire la liste des monosaccharides connus ainsi que 
30 leur masse • 

Une deuxieme etape consiste k parcourir 
1' ensemble des masses determinees par spectrometrie. Pour 
une premiere masse, le precede cherche ^ resoudre 
35 1' equation suivante, appeiee equation Y : 
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matsse total e mesurSe = 
(Somme des masses des composants - pejrtes de liaisons) 
■h (aglycane - perte liaison aglycone - root ) * + masse ION + 
5 agent rSducteur 

(*) ssi aglycone ^ o 

Cette Equation se traduit par « 
M±err^ ^{ai * mi) - \^{ai) - 1) * H^o\ + {aglycone - if^^^)* 

+ / ON + reduction 
(*) : ssi aglycone ;6 0 

10 oa : 

M = masse experimentale mesur^e dans le spectrotnStre de 
tnasse 

ejTjr = erreur de mesure du spectrometre 
mi = masse (monoisotopique) du composant 1 
15 ai = nombre de composants 1 apparaissant dans la solution 
(ai est un entier) 
H^O - masse d'tjuie mol6cule d'EAU 

aglycane = masse de 1' aglycone en cas d' aminoreduction 
TON » masse de I'ion 
20 ^reduction = increment de masse d(i aux conditions de 
reduction 

Selon le procSde, 1 ' ensemble des masses 
determinSes est parcouru dans I'ordre des masses 

25 croissantes et pour chaque masse, on cherche un ou 
plusieurs monosaccharides resolvant 1' Equation La plus 
petite masse pour laquelle 1' equation Y a une solution est 
appel§e masse minimale et la solution ^ 1' Equation Y pour 
la masse minimale est appelee « racine » - La racine peut 

30 Stre composSe d'un ou de plusieurs monosaccharides. Cette 
racine est le premier element d'un ensemble de chemins : 
1' ensemble des chemins est un tableau et chac[ue ligne du 
tableau constitue une Stape d'xin chemin. 
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Par la suite, on continue le parcours dee masses 
par ordre croissant en essayant de r^soudre 1' equation Y 
avec des structures de monosaccharides incluant la racine. 
Chaque structure solution est ajoutSe audit tableau. De 
tnaniere ^tendue, chaque structure solution de 1' Squat ion Y 
pour una des masses mesur6es inclut une structure 
prealablement enregistrSe dans le tableau. Ainsi, un 
systeme d' heritage est mis en place a partie de la racine : 
chaque structure solution, exceptee la racine, a une 
« mere » parmi les autres structures solutions. 

Dans ce tableau, chaque ligne correspond a une 
structure de monosaccharide et donne la quantity de chaque 
monosaccharide < super ieur ou €gal k 0) dans la structure 
ainsi que le numero de la ligne de la structure 4! m^re » de 
la structure courante . 

La recherche d'une solution de 1' equation Y pour 
une tnasse dite courante consiste done a a j outer au moins un 
monosaccharide ^ une structure solution de 1' equation Y 
pour une masse infSrieure a la masse courante. Pour cela, 
ledit tableau est parcouru et pour chaque ligne {i.e. 
chaque structure) , une solution incluant la structure 
correspondante a ladite ligne est cherchSe. Afin de rSduire 
le temps de calcul, certaines lignes ne sont pas traitSes : 
les structures solutions de 1' equation Y pour une masse 
inferieure d'une certaine quantite a la masse courante ne 
sont pas indues dans la recherche. Cette quantity est 
choisie arbitrairement par I'utilisateur , Dans un mode de 
realisation du procede, cette quantite Stait %ale k deux 
fois la masse du monosaccharide le plus lourd (NeuGC) . 

Ainsi, soit une structure solution SI de 
1' Equation Y pour une masse de raies rl, s'il n'existe 
aucun monosaccharide ou assemblage de monosaccharides, qui, 
agr6g6 a ladite solution SI est solution de 1' equation Y 
pour toutes les masses expSrimentales comprises entre rl et 
r2=rl+2*Masse (NeuGC) , alors la solution si n'a pas de fils 



FR 2 844 357 



Page 10 of 27 



o 



o 



2844357 



et n'est plus prise en compte pour les recherches des 
solutions de 1' equation Y pour des masses sup6rieures k r2 . 

Dans I'exetnple de la figure 1, la premiere raie 
correspond a une masse de 300,4 Dal tons. 

rl = 3 00,4 Da 

M(NeuGC) 327,1165 Da 

2*M(NeuGC) = 654,233 Da 

rl + 2*M{NeuGC) = 954,633 Da 



10 



15 



20 



r2 = 500,30 Da < 954,633 Da 
r3 = 665,50 Da < 954,633 Da 
r4 = 811,56 Da < 954,633 Da 
r5 = 827,80 Da < 954,633 Da 
r6 = 973,86 Da > 954,633 Da 

Ainsi pour les raies 2 k S, on cherchera S 
combiner la solution pour la raie 1 avec une ou plusieurs 
molecules de base. En revanche, pour la raie 6, on ne 
cherchera pas k combiner la solution pour la raie 1 avec 
une ou plusieurs molecules de base. 



La masse maximale pour laquelle Y a une solution 
est appel^e « masse maximale ». Seuls les chemins 
aboutissant k une structure solution de 1' equation Y pour 
25 la masse maximale sont consid^res comme valables. 



Une troisidme ^tape intervient une fois 
1' ensemble des structures solutions determin^es : les 
structures solutions de 1' Equation Y pour la masse maximale 

30 sont traitSes. En effet, seules ces structures sont 
susceptibles de correspondre k la molecule recherchee car 
elles couvrent tout le spectre de la raie minimale (racine) 
^ la raie maximale pour laquelle elles sont solutions. 
L'^tude de 1' heritage des structures sSlectionn^es permet 

35 d' identifier la sequence des monosaccharides, c'est-S-dire 
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I'ordre dans lec[uel ils ont €t€ ajoutes S la racine . On 
obtient ainsi un ensemble de sequences que I'on stocke dans 
line m^moire. 

Certaines de ces sequences ont la meme 
composition , c'est-a-dire la mSme quant ite de chaque 
monosaccharide ou de chaque groupement substituant , Ces 
sequences de meme composition sont regroupeee en une seule 
« composition » de 1' Equation Y pour la masse maximale. 

Pour chaque « composition >, une quatrieme ^tape 
consiste a determiner les arbres possibles* Pour cela, 
1 ' ut ilisateur determine pour une premidre sequence de 
ladite composition les arbres possibles : 

chaque element de la sequence (un 
monosaccharide) est associ^ a un « nceud » qui 
comprend trois liens vers trois autres <c noauds » 
et un identifiant de 1' Element. Ces liens sont 
appel^s gauche, droite et milieu ; 
ainsi, le premier Pigment de la sequence (la 
racine) est associ^ h un premier nceud ; 
pour le deuxifeme Element de la sequence, on cr6e 
trois ensembles de noeuds : chaque ensemble 
contient deux noeuds dont le premier correspond a 
la racine et le second audit deuxidme element, 
les deux noeuds §tant respectivement lies par le 
lien gauche, le lien droite et le lien milieu 
pour les premier^ deuxidme et troisiSme 
ensembles. Ces ensembles de nceuds sont appel^s 
des « arbres » et 1' ensemble (2) des arbres 
contient les arbres comprenant le deuxieme 
6 lament ; 

- Ainsi de suite, pour le n-idme element, 
1' ensemble (n) des arbres est compost d' arbres 
cr6Ss ^ partir des arbres de 1' ensemble (n-l) , 
chaque nouvel arbre correspondant a un arbre de 



FR2 844 357 



o 



Pag e 1 2 of 27 



o 



2844357 



11 



10 



15 



20 



25 



30 



1' ensemble (n-l) ajout^ d'lin noeud correspondant 
au n-idme S lament eur un des liens libres. 
Pour r€duire le temps de calcul de 1' ensemble 
des arbres final, on supprime au fur et Sl mesure 
les arbres redondants : par exemple, les troie 
arbres composes de deiox molecules de fucose ou 
la deuxi^me molecule est situ6e respect ivement 
sur les liens droite, gauche et milieu, sont 
equivalents. Ainsi, un certain nombre d' arbres 
sont ^limin^s. 



Ensuite, les arbres restants sont compares aux 
autres sequences de la m^me composition : un arbre est 
conserve si toutes les sequences de la meme composition 
peuvent etre realisees avec cet arbre. 



Le choix de trois liaisons possibles ^ partir 



d'un nosud a et^ pris en r^f^rence ^ la valence 4 de I'atome 
de carbone sur lequel se fixe en g4n6ral I'^l^ment de base 
suivant . 



Pour une composition, il reste done un ensemble 



d' arbres « compatibles » avec toutes les sequences de la 
compos i t i on . 



Afin de determiner quel est 1' arbre le plus 



probable de maniSre automatique, le proc€d6 propose dans 
une cinquieme 6tape de comparer le spectre th^orique de 
chaque arbre restant avec le spectre experimental mesurS 
par le spectrometre de masse. Pour cela, le proc6d6 compte 
le nombre de raies du spectre th^orique qui n'ont pas pu 
§tre utilis^es par le precede. Une raie du spectre 
theorique d'un arbre correspond a la masse d'lm fragment de 
1' arbre. Le calcul du spectre theorique d'un arbre revient 
done a calculer les masses des sous--arbres inclus dans 
1' arbre et contenant la racine. Le nombre de masses de 
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sous-arbres n'existant pas dans 1' ensemble des masses 
expSrimentales determine la probability d' occurrence de 
I'arbre en question. 

La methode employee de pr^f^rence par le proced6 
permet de rSduire le temps de calcul : pour un arbre, le 
calcul de la liste des fragments se fait de la maniere 
suivajite : 

un op6rateur « multiplication d'une liste par un 
61^ment » est cr66 qui, a partir d'une liste 
d' elements, cree une nouvelle liste oCl chaque 
616ment est le resultat de la concatenation de 
l'€16ment nouveau avec \m Sl€ment de la liste 
d' entree . 

un op^rateur « produit de deux listes » resulte 
du premier : c'est 1' application de I'op^rateur 
« multiplication d'une liste par un 616ment » 
sur tous les items de la liste 1 avec la liste 
2 . 

Ainsi, la liste des fragments produite a un nceud 
quelconque est 4gale au produit des listes issues de ses 
fils^ qui est ensuite multiplie par 1' element du noeud ; une 
masse nulle est ajoutee enfin en tete de liste ; 
1' introduction de la masse nulle impl€mente le fait que la 
branche peut-Stre absente ; cette masse nulle se propage 
dans le parcours r^cursif et permet d' avoir la liste 
complete en un seul parcours ; la liste produite par une 
feuille est done oine liste de deux Elements : [0, elt] , 



Une fois la liste des fragments de I'arbre 
30 obtenue, le proc^dS determine le nombre de fragments 
th^oriques trouv^s ne correspondant k aucune des masses 
experiment a les f ournies > Afin d'eviter de recalculer la 
masse th^orique pour chaque fragment, le procSde propose de 
comparer les fragments th^oriques determines avec les 
35 decompositions d'une « sequence En effet, la liste de 
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fragments construite est composee de fragments prSsentSe 
sous forme de suite de monosaccharides. Pour un fragment, 
si ladite suite de monosaccharides est pr§sente dans vune 
des decompositions de la < sequence alors il existe une 
5 raie du spectre correspondant k cette suite de 
monosaccharides* Done le fragment theorique correspondant 
est present dans le spectre experimental. De plus, il peut 
arriver que la suite de monosaccharides reprSsentant un 
fragment ne soit pas ordonn^e de fa<?on ^ ce qu'elle soit 

10 reconnue comme valable. Pour resoudre ce genre de cae, I'e 
procSd^ realise une comparaison des compositions de la 
suite de monosaccharides, sans ordre, avec la partie de 
mSme taille des decompositions* Si les deux compositions 
sont identiques, le fragment correspond a une raie du 

15 spectre experimental. 

Les fragments dont la composition ne se retrouve 
pas parmi les decompositions sont appel^es des « raies 
manquantes »■ du spectre theorique de 1 ' arbre . Le nombre de 
raies manquantes determine la pertinence de 1' arbre. 

20 L' arbre ayant le moins de raies manquantes d6finit la 
structure la plus probable pour la molecule. Si plueieurs 
arbres ont le m6me nombre minimal de raies manquantes, il 
est necessaire de recourir a une expertise humaine qui 
saura determiner quel est 1' arbre le plus probable. 

25 En particulier, cette expertise s'appuie sur 

l'6quilibre naturel des molecules. Une extension du proc€de 
de 1' invention peut prendre en compte cet equilibre pour 
determiner 1 ' arbre le plus probable, en comptant par 
exemple le nombre de monosaccharides sur chaque sous-arbre 

30 d'un noeud comportant plusieurs sous-arbres ainsi que le 
type des monosaccharides- 



Un exemple de realisation de ce precede est 
decrit ci-dessous en se referant aux dessins. 
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Le spectrometre de masse fournit les donn^es 
representees sur la figure 1/ oH chaque pic (ou raie) 
correspond k la masse d'un fragment de la molecule. On 
considere que 1' oligosaccharide cherche est compost de 
HexNAC (masse : 221,0899 Da), d'Hexose (masse : 180,0364 
Da) et de Fucose (masse : 164,0684 Da). La resolution de 
1' equation Y donne le tableau suivant : 



N*^ ligne 


HexNAC 


Hexose 


Fucose 


Ligne 
< mdre » 


N** raie 


1 


1 


0 


0 




1 


2 


2 


0 


0 


1 


2 


3 


2 


0 


1 


2 


3 


4 


2 


1 


0 


2 


4 


5 


2 


1 


1 


3 


5 


6 


2 


1 


1 


4 


5 



10 II y a dexxx solutions pour la raie maximale : en 

remontant le chemin menant de la racine (raie 1) & la raie 
maximale, on obtient deux sequences : 

HexNAC-HexNAC-Fucose-Hexose (sequence 1 ) 
HexNAC -HesdTAC- Hexose -Fucose ( sequence 2 ) 
15 Ces deux sequences ou decompositions ont la meme 

composition, elles sont done regroupSes dans une seule 
solution. 

On cherche maintenant les arbres possibles pour 
la sequence 2. La construction des arbres est illustr^e 

20 figure 2. Une premidre etape consiste Sl cr6er un arbre 
contenant un premier <c HexNAC » , la deuxiSme etape consiste 
^ a j outer un deuxiSme HexNAC audit premier HexNAC. Le 
deioxiSme HexNAC peut etre accroch§ au premier par le lien 
« gauche », le lien « milieu » ou le lien « droit ». Dans 

25 la pratic[ue, comme ces trois arbres sont Equivalents, im 
seul arbre est const aruit, avec le deuxi^me hexNAC accroche 
sur le lien « gauche ». D'une maniSre gSnerale, un nouveau 
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monosaccharide sera toujours accrochS sur le lien libre le 
plus S gauche du no&ud pr6c6dent et un seul arbre sera 
conetruit quel que soit le nombre de liens libres du noeud* 
La troisi^me ^tape consist:e a ajouter un Hexose a 1' arbre 
construit & I'etape 2 : pour cela, il y a deux possibilit^s 
non ^quivalentes i 

accrocher 1' Hexose au premier hexNAC ; 

accrocher 1' Hexose au deiixieme hexNAC ; 

Ainsi deux arbres sont construits. 
La quatrieme 6tape consiste enfin & ajouter le Fucose aux 
arbres construits Sl I'etape 3. Les six possibilities (trois 
par arbre) sont d^taillSes eur la figure 2* Il est S noter 
que la molScule HexNAC qui se situait sur le lien gauche du 
premier HexNAC du premier arbre de I'etape 3 est maintenant 
situ^e sur le lien milieu pour I'arbre N°5 de I'Stape 4. En 
effet, sur un nceud, les sous -arbres sont tri^s de gauche k 
droite par ordre de poids d§croissant. Comme 1' association 
d'un Hexose et d'un Fucose est plus lourde qu' HexNAC, 
1' ordre est inverse par rapport aux autres arbres 
possibles, ou ce cas ne se prSsente pas. 

Une fois les arbres construits pour la sequence 
2, le proc6d6 selon 1' invent ion v^rifie que les arbres 
construits sont compatibles avec la sequence !• Pour cela, 
le procede teste s'il est possible de reconstruire les 
arbres de l'6tape 4 avec la sequence 1. Deux arbres sont 
Slimin^s (les arbres N^5 et 6) car il est impossible de 
construire ces arbres sans placer 1 'Hexose avant le Fucose. 

Sur les 4 arbres restants, le proc6d6 selon 
1' invention cherche a determiner le spectre th^orique afin 
de le comparer avec le spectre escp^rimental ♦ Les fragments 
sont determines selon la mSthode decrite ci-dessus 
utilisant les operateurs « multiplication d'une liste par 
un element »^ et « produit de deux listes » . Chaque fragment 
determine est decrit sous forme d'une sequence stockee dans 
une memoire. Cette methode est illustree figure 3, 



Par exemple, pour le premier arbre, le proc^d^ 
cr^e trois listes, chaque llste correspondant d. un des 
« f lis » du noeud racine : 

{HexNAC, 0) ; 
(Hexose, 0) ; 
(Fucose, 0) , 

On applique 1 ' operateur « produit de deux 
listes x> aux deux premieres listes , ce qui donne : 

(HexNAC- Hexose, HexNAC, Hexose, 0) 

que I'on multiplie par la troisieme liste, 

soit : 

(HexNAC - Hexos e - Fucos e , HexNAC - Hexos e , HexNAC - 
Fucose, HexNAC, Hexose- Fucos e, Hexose, Fucose, 0) 

On applique I'opgrateur « multiplication d'une 
liste par un 61^ment » a la liste pr§c6dente avec 1' element 
« HexNAC », ce qui donne : 

(HexNAC-HexNAC-Hexose-Fucose, HexNAC -HexNAC - 
Hexose, HexNAC-HexNAC- Fucose, HexNAC- HexNAC, HexNAC -Hexos e- 
Fucose, HexNAC -Hexose, HexNAC- Fucose , HexNAC) 

Cette liste est la liste des fragments pour le 
premier arbre. Chaque 616ment de cette liste correspond k 
une raie du spectre th^orique de I'arbre conceme. Pour 
verifier que les raies th§oriques existent dans le spectre 
experimental, il suffit de verifier que le fragment 
correspondant est inclus dans une des « sequences » de la 
« decomposition », Ces sequences Staient : 

HexNAC-HexNAC-Fucose-Hexose (sequence 1) 
HexiNAC-HexNAC-Hexose-Fucose ( sequence 2 ) 
Ainsi, en num^rotant les fragments de la liste 
de 1 ^ 8, on constate que les fragments 1, 2, 3, 4 et 8 
sont inclus dans une des sequences, alors que les fragments 
5, 6 et 7 ne le sont pas. La deuxidme verification consiste 
a regarder la composition des fragments non-valables avec 
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la composition des fragments de m@me longueur, conteneint la 
racine des 4; eSguences Dans ce cas, les trois fragments, 
sont ggalement rejetSs. Ainsi, le nombre de raies 
manquantes de cet arbre est de 3 . Les m6mes Stapes sont 
rSalisees pour les autres arbres . L' arbre qui a le plus 
petit nombre de raies manquantes est la plus probable, en 
1' occurrence ici, le quatri^me. 

Li' invention est dScrite dans ce qui prScSde S 
titre d'exemple. Il est entendu que I'homme du metier est k 
meme de realiser diffSrentes variantes de 1' invention sans 
pour autant sortir du cadre du brevet 
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RE VENDI CATIONS 



1. ProcSd^ de determination d'une structure 
5 moleculaire branchee k partir de donnees de masses de 
fragments de ladite molecule, caract^rise en ce qu'il 
comprend les Stapes suivantes : 

a) une 6tape d' enregistrement dans une memoire 
de la liste des €16ments de base pouvant 

10 constituer ladite molScule branchee ; 

b) une Stape de stockage en memoire des 
solutions Sl une equation mettant en jeu les 
elements de base, leur masse, leur nombre et 
une des masses donnSes, ceci pour toutes les 

15 masses ; 

c) une etape de constitution de sequences 
d'^l^ments de base a partir desdites 
solutions, chaque sequence incluant une 
solution pour une masse dite minimale et la 

20 sequence complete etant solution pour une 

masse dite maximale ; 

d) une etape de regroupement des sequences par 
composition ; 

e) une ^tape de stockage des arbres possibles 
25 pour une composition d' elements de base en 

fonction des sequences de cette composition 
determinSes ^ 1' etape c) ; 

f) pour chaque arbre de I'Stape e) , une 6tape de 
calcul de 1' ensemble des fragments possibles 

3 0 de 1' arbre ; 

g) pour chaque fragment de I'^tape f ) , vine etape 
de test permettant de savoir si le fragment 
correspond a une des masses donnees . 
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2. ProcSde de determination d'une structure 
mol6culaire branch^e selon la revendication 1, caract§ris6 
en ce que I'Stape b) est r^alisee de manidre incr^mentale 
depuis la plus petite masse vers la plus grande masse, que 

5 la solution pour rjurie masse est cherchee en utilisant les 
solutions trouvees pour les masses inferieures et que les 
donn^es correspondant aux dites solutions sont stockees dans 
un tableau, 

3. Procede de d6termination d'une structure 
10 moleculaire branch^e selon I'une des revendications 

pr6c6dentes, caractSris6 en ce que I'gtape c) consiste a 
d^finir le N-Sme 61€ment de base de la sequence en comparant 
la solution N pour la masse en cours de traitement avec la 
solution N-1 a partir de laquelle la solution N a St6 
15 trouv^e et a ecrire dans un fichier un identifiant dudit N- 
eme element de base. 

4. Procede de determination d/une structure 
moleculaire branch^e selon I'une des revendications 
pr^c^dentes, caract§ris6 en ce que l'6tape e) consiste h : 

20 - associer a chaque Element de base d'une 

sequence une donn^e de type « noeud » 
comportant un identifiant de l'616ment de 
base et au moins une r6f§rence ^ un autre 
noeud ; 

25 - a la N-eme ^tape, pour chaque arbre de 

l'6tape N-1, pour chaque noeud comportant une 
reference libre, cr6er un noeud contenant le 
composant N de la sequence et af fecter ladite 
reference libre audit noeud cree ; 
30 5. Procede de determination d'une structure 

branch^e selon I'une des revendications 
caracterise en ce que I'^tape f) consiste a 
generer une liste de sequences d' elements de base ou chaque 
sequence inclut ladite solution pour une masse minimale, les 
35 elements du fragment correspondant a ladite sequence etant 
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precedentes , 
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ordonnes par ajout de « noeud » en < noeud » S partir de 
ladite solution pour une masse minimale. 

6. Proc6d6 de determination d'une structure 
moleculaire branchSe selon I'une des revendicat ions 
5 pr6c6dentes, caracterise en ce que l'6tape g) est cotnpos6 de 
deux Stapes : 

Une 6tape de comparaison de la sequence 
correspondant audit fragment avec les sequences 
de ladite composition resultant un premier 
10 bool6en VRAI ou FAUX ; 

Si ledit premier booleen est FAUX, une ^tape de 
con^araison de la composition de ladite sequence 
avec les compositions des sous -sequences de mSme 
longueur incluant la solution minimale desdites 
15 sequences solutions pour une masse maximale 

resultant un deuxidme booleen VRAI ou FAUX. 
7* Proc^d^ de determination d'une structure 
moleculaire branch.6e selon la revendication 6, caracterise 
en ce qu'il comprend une etape supplementaire de choix de 
20 I'arbre <des arbres) le{s) plus pertinent (s) en fonction des 
r^sultats de I'etape g> en associant h chacxxn des arbres 
g^n^r^s a I'etape e) un compteur mis S z6ro au d^but du 
precede et incr^mente d'Tin si lesdits deux booleens sont 
FAUX et en choisissant I'arbre (ou les arbres) dont le(s) 
25 compteur{s) est (sont) le(s} plus faible(s), 

8. Utilisation du precede de determination d'un 
structure moleculaire branchee selon I'une des 
revendicat ions precedentes, caracterisee en ce que la 
structure recherchee est un oligosaccharide, les donnees de 
30 masse sont obtenues par spectrometrie de masse et les 
elements de base sont des monosaccharides ou des groupements 
substituants . 
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